智能论文笔记

Protein language models trained on multiple sequence alignments learn phylogenetic relationships

Umberto Lupo , Damiano Sgarbossa , Anne-Florence Bitbol

分类：机器学习

2022-03-29

最近，自我监督的神经语言模型最近已应用于生物序列数据，进步的结构，功能和突变效应预测。一些蛋白质语言模型，包括MSA变压器和Alphafold的Evoformer，将进化相关蛋白的多个序列比对作为输入。 MSA Transformer的行专注的简单组合导致了最新的无监督结构接触预测。我们证明，MSA变压器柱浓度的简单和通用组合与MSA中序列之间的锤距距离密切相关。因此，基于MSA的语言模型编码详细的系统发育关系。我们进一步表明，这些模型可以将编码功能和结构约束的共同进化信号与反映历史意义的系统发育相关性分开。为了评估这一点，我们从POTTS模型中生成了在天然MSA训练的POTTS模型的合成MSA。我们发现，当使用MSA变压器与推断的POTTS模型时，无监督的接触预测对系统发育噪声的弹性更大。

translated by 谷歌翻译